5 research outputs found

    Anarâškielâ vokalij kvalitetnubástusâi myensteristem kielâtekno morfologisii analysaattorist

    Get PDF
    Čuákánkiäsu. Tromssa ollâopâttuv sämikielâi kielâteknologisâš kuávdáš Kielâtekno lii pyevtitmin anarâškielâ automatlii sänianalyys jieijâs maašinjurgâlemproojeekt uássin. Automatlii sänianalyysist láá ennuv heiviittemmáhđulâšvuođah nuuvt kielâmáttááttâsâst ko ton tutkâmist-uv: koŋkretlâžžân puátusin jo tääl lii anarâškielâ njuálguluuhâmohjelm testammuddoost. Sänianalyyspargo lii vala rähtimmuddoost já ton ovdedem lii eidu tääl äigikyevdil. Eromâšávt anarâškielâ morfologisij já morfofonologisij jiešvuođâi tivodem lii tehálâš, tondiet ko tot lii keđgijyelgi puoh maajeeldpuáttee heiviittâssáid. Taan tuđhâlmist mun adelâm iävtuttâs, maht anarâškielâ vookaalvuáháduv puávtáččij myensteristiđ morfologisii analysaattor várás tienuuvt, et suujâtmist já suorgitmist šaddee feeilah kiäppániččii. Myensteristem várás mun čielgiim, magareh vokalij kvalitetnubástusah anarâškielâst láá eromâšávt vuossâmuu já nube stavâlist. Vookaalvuáháduv tutkâmist kuávdáš vuolgâsaje láá lamaš Frans Äimä (1918) já Erkki Itkos (1939, 1971) tutkâmušah. Tááláá kielâ kuvvim vuáđđun lii muu jieččân kielâfiättu, mon mun lam testam jieččân máttááttempargoost tutkâmáin kirjálijd kälddeid, il. sänikiirjijd já sujâttemovdâmeerhâid toi ooleest. Tutkâmušâi vuáđuld mun puávtám oovdân vokalij tijppâjurduu, mii čielgee vuossâmuu staavvâl vokalij kvalitetnubástusâid vookaalharmonisávt talle ko nube staavvâl vookaal kvalitet muttoo, já arkkâvookaaljurduu, mon mield uási nube staavvâl vokalij kvalitetnubástusâin láá addiimist fonotaktilávt. Kielâtekno anarâškielâ morfologisâš analysaattor vuáđuduvá Kimmo Koskenniemi kyevti tääsi morfologisii myensterân, mon mield sänianalyys olášuttuvvoo leksikaallii jurgâleijee (lexc) já kyevti tääsi jurgâleijee (twolc) vievâst. Muu tutkâmušfáddá kuáská vuosâsaajeest twolc vokalij kvalitetnubástussáid, mut toi árvuštâllâm várás mun tuuđhâm almolávt ubâ leksikonvuáháduv. Muu tutkâmušah kietâdeleh Kielâtekno jieijâs käldeetiätuvuárháid, moh lijjii finniimist roovvâdmáánust 2016 (Kielâtekno 2016). Kuávdáš puátusin morfologisii analysaattor tutkâmušâin lii, et vokalij kvalitetnubástusah tuáimih viehâ pyereest mut episystematlávt säniluokai já sujâttemmaddui čoođâ, mii taha analysaattor tivodem, peividem já ovdedem muálkkán. Muu iävtuttâs kuávdáš čuávduseh vuossâmuu já nube staavvâl vokalij myensteristem várás láá: 1) vuossâmuu staavvâl vookaal merkkejuvvoo lemmast tijppâjurduu miäldásávt systematlávt säniluokain já maadâjuávhust peerusthánnáá já 2) nube staavvâl vookaal merkkejuvvoo arkkâvokalin eskin jotkâleksikonijn já arkkâvookaal jieškote-uv realisaatioh čuávdojeh twolc-njuolgâdusâiguin.Inarinsaamen vokaalien laatumuutoksien mallintaminen giellateknon morfologisessa analysaattorissa. Tiivistelmä. Tromssan yliopiston saamen kielten kieliteknologinen keskus Giellatekno on tuottamassa inarinsaamen kielen automaattista sana-analyysia oman konekäännösprojektinsa osana. Automaattisella sana-analyysilla on paljon soveltamismahdollisuuksia niin kielenopetuksessa kuin sen tutkimisessakin: konkreettisena tuloksena jo nyt on inarinsaamen kielen oikolukuohjelma testausvaiheessa. Sana-analyysityö on vielä kesken ja sen edistäminen on juuri nyt ajankohtaista. Erityisesti inarinsaamen kielen morfologisen ja morfofonologisen mallinnuksen korjaaminen on tärkeää, koska se on kivijalka kaikille myöhemmin tuleville sovellutuksille. Tässä tutkielmassa esitän, miten inarinsaamen kielen vokaaliston voisi mallintaa morfologisessa analysaattorissa siten, että taivuttamisessa ja johtamisessa syntyvät virheet vähenisivät. Mallintamista varten selvitän, minkälaisia vokaalien laatuvaihteluita inarinsaamen kielessä on erityisesti ensimmäisessä ja toisessa tavussa. Vokaaliston tutkimisessa keskeinenä lähtökohtana ovat olleet Frans Äimän (1918) ja Erkki Itkosen (1939,1971) tutkimukset. Nykykielen kuvauksen pohjana on oma kielitaitoni, jota olen testannut omassa opettajantyössäni tutkimalla kirjallisia lähteitä, mm. sanakirjoja ja niistä löytyviä taivutusesimerkkejä. Tutkimusten perusteella esittelen vokaalien tyyppiajatuksen, joka selittää ensimmäisen tavun vokaalien laatumuutokset vokaaliharmonisesti silloin kuin toisen tavun vokaalin laatu muuttuu, ja arkkivokaaliajatuksen, jonka mukaan osa toisen tavun vokaalien laatumuutoksista on ymmärrettävissä fonotaktiselta kannalta. Giellateknon inarinsaamen kielen morfologinen analysaattori perustuu Kimmo Koskenniemen kahden tason morfologiseen malliin, jonka mukaan sana-analyysi toteutetaan leksikaalisen kääntäjän (lexc) ja kahden tason kääntäjän (twolc) voimin. Tutkimusaiheeni koskee ensisijaisesti twolc:n vokaalien laatumuutoksia, mutta niiden arviointia varten tutkin yleisesti koko leksikkojärjestelmää. Tutkimukseni kohteena on Giellateknon oma lähdekoodi, joka oli saatavilla lokakuussa 2016 (Kielâtekno 2016). Keskeisenä tuloksena morfologisen analysaattorin tutkimuksissa on, että vokaalien laatumuutokset toimivat melko hyvin mutta epäsystemaattisesti sanaluokkien ja vartaloryhmien läpi, mikä tekee analysaattorin korjaamisesta, päivittämisestä ja kehittämisestä mutkikasta. Esitykseni keskeiset ratkaisut ensimmäisen ja toisen tavun vokaalien mallintamiseksi ovat: 1) ensimmäisen tavun vokaali merkitään lemmassa tyyppiajatuksen mukaisesti systemaattisesti sanaluokista ja vartaloryhmistä välittämättä ja 2) toisen tavun vokaali merkitään arkkivokaalilla vasta jatkoleksikoissa ja arkkivokaalin eri realisaatiot ratkaistaan twolc-säännöillä

    Archive Infrastructure and Spoken Language Corpora for Saami Languages in Finland

    Get PDF
    Publisher Copyright: © 2022 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0)This study presents the results of an Aanaar Saami pilot project in the Saami Culture Archive, University of Oulu. The project has established a set of conventions to transcribe and annotate Aanaar Saami recordings in the archive's collection and created a mechanism through which grammatically annotated but anonymous versions can be imported to the Korp search interface in the Language Bank of Finland. The practices include wide use of Saami language technology, the use of Finnish computational research infrastructure, and they can be extended later to other Saami languages in the archive.Peer reviewe

    Archive Infrastructure and Spoken Language Corpora for Saami Languages in Finland

    Get PDF
    Publisher Copyright: © 2022 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0)This study presents the results of an Aanaar Saami pilot project in the Saami Culture Archive, University of Oulu. The project has established a set of conventions to transcribe and annotate Aanaar Saami recordings in the archive's collection and created a mechanism through which grammatically annotated but anonymous versions can be imported to the Korp search interface in the Language Bank of Finland. The practices include wide use of Saami language technology, the use of Finnish computational research infrastructure, and they can be extended later to other Saami languages in the archive.Peer reviewe

    Anarâškielâ postpositioi pelni já piälán čäällim sierâ já oohtân tievâdâsâinis SIKOR-tekstâčuágálduvâst

    Get PDF
    Inari Saami does not have a strong written tradition. The current orthography was adopted as recently as the 1990s, and the revitalization process is beginning only now to shift its focus from increasing the number of speakers to strengthening the literacy of the language. This article studies the Inari Saami postpositions pelni and piälán as well as their shorter forms peln/beln and pel/bel. The main question is whether these postpositions are joined to the noun preceding them or stand after it as separate words. The research is based on the SIKOR Inari Saami free corpus developed by the Giellatekno team. The postpositions have been analyzed semantically taking into account the frequency with which they occur in the literature. They have been divided into four semantic groups: 1) place, 2) orientation and direction, 3) time and 4) other semantic categories. The long forms pelni and piälán are mostly written as separate words – except for when they are used to express orientation or direction – whereas the short forms peln/beln and pel/bel are usually joined to the preceding word other than in time expressions. Alternative explanations for such variation are also discussed
    corecore